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Построение суперкомпьютера кластерной 
архитектуры без использования сети ЕФфегпей 


Исследованы общие концепции управления высокопроизводительной кластерной вычислительной системой 
без использования сети Ефегпе а также рассмотрена возможность практической реализации такого 
управления. 


Введение 


Производительность современных вычислительных узлов вполне соизмерима с 
производительностью небольших кластеров недавнего времени. Такой уровень вычисли- 
тельных мощностей, а также потребность в управлении большим количеством 
вычислительных узлов в одном отдельно взятом кластере на порядок увеличивает 
требования к средствам обмена данными. Следовательно, использование только сети 
Еегпе не может обеспечить нужной скорости обмена данными между приложе- 
ниями по протоколу МР/ [1] для полномасштабного учета характеристик аппаратуры. 
Поэтому в суперкомпьютерах стало нормой использование высокоскоростных сетей 
(тртВапа, МутМе, 5СГ и др.) [2]. Они обеспечивают производительность, необходимую 
для полной реализации потенциала как программных, так и аппаратных средств, и 
могли бы заменить Ейегией не только как средство для обмена МР/ сообщениями, но 
и для передачи любых данных. Однако, учитывая все аспекты эксплуатации клас- 
терных вычислительных систем, управление ими без использования Е!Йегпие! было 
практически невозможно и в большинстве случаев приходилось использовать сразу 
две сети одновременно, хотя избыточное количество сетевого оборудования негативно 
влияет на такие характеристики системы, как стоимость, сложность и надежность. 
В этой ситуации управляющие системные функции распределяются между двумя сетями, 
во многом они дублируют друг друга, но в то же время ни одна из них не может в 
полной мере заменить вторую. Вполне логичным было возникновение идеи постро- 
ения управления вычислительной системой без использования сети ЕЙегией. 


Функции сети в кластерной вычислительной системе 


Если мы хотим оставить только одну сеть, то необходимо обеспечить реализацию 
всей функциональности управления работой современной высокопроизводительной 
кластерной вычислительной системы. Упрощенно группами таких функций являются: 

1. Обмен данными по интерфейсу МРТ. Меззазе Раззше ПиегЁсе (интерфейс 
передачи сообщений) — программный интерфейс (АРГ) для передачи информации, 
позволяющий осуществлять обмен сообщениями между компьютерами, выполняющими 
параллельную задачу. Он является наиболее распространенным стандартом интер- 
фейса обмена данными в параллельном программировании. Программное обеспечение 
современных кластеров чаще всего выполняет обмен данными именно через МР1. 
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2. Пересылка ГР пакетов. Сетевые сервисы, необходимые для работы кластера, 
используют этот протокол для передачи информации по сети. Например, корневая 
файловая система узлов обычно монтируется с помощью МебмотК Ше зу$ет (МЕЗ), 
которая работает в соответствии со стеком протоколов ТСРЛР, а следовательно, поддер- 
жка ТСРЛР является необходимым условием функционирования кластерного комплекса. 

3. Удаленная загрузка узлов. Учитывая большое количество вычислительных 
узлов в высокопроизводительных кластерах, устанавливать на каждый из них от- 
дельную операционную систему представляется достаточно сложным, а в случае 
применения бездисковых узлов и невозможным процессом. Чаще всего в кластерных 
комплексах реализуется удаленная загрузка одного экземпляра операционной системы. 
Такой подход значительно упрощает администрирование вычислительной системы. 

4. Удаленное управление аппаратными средствами кластера, не зависящее 
от операционной системы. Как известно, кластерные вычислительные системы 
чаще всего находятся на значительном расстоянии от пользователей и даже адми- 
нистраторов, поэтому любые простые операции, требующие непосредственного 
доступа к оборудованию, например, перезагрузка «зависшего» узла, без наличия 
специальных средств, превращается в проблему. Для упрощения обслуживания таких 
систем используют специальные средства, позволяющие многие подобные операции 
выполнять удаленно. 

Полноценная работа современного высокопроизводительного кластера требует 
реализации как минимум упомянутых 4 групп функций и, если ставится цель отказаться 
при этом от использования Ёйегпе!, то оборудованием всего одной сети. Среди сущест- 
вующих сейчас высокоскоростных сетей наиболее интересной, в контексте данной 
темы, является ийтВапа [3]. Причины такого интереса: 

1. Высокая пропускная способность. Для передачи данных в /ийшВапа приме- 
няются 4-проводные двунаправленные соединения. Базовая пропускная способность 
составляет 2,5 Гбит/с в каждом направлении при использовании Зшее Раа Кае 
(5ОК), поддерживается также работа с ДоиЫе аа Кае (ООВ) — 5 Гбит/с и Оцаа аа 
Вае (ООК) - 10 Гбит/с. Сетевые платы и коммутаторы имеют порты 4х, скорость при 
этом составляет соответственно 10, 20 или 40 Гбит/с. 

2. Многоплановая функциональность. /ийтВапа поддерживает множество 
протоколов, среди которых: 

— Ретоые Отес! Метогу Ассез5 (КОМА) [3] - группа протоколов удалённого прямого 
доступа к памяти, при котором передача данных из памяти одного компьютера в память 
другого компьютера происходит без участия операционной системы и использования 
ресурсов центрального процессора; 

— 5051 КОМА Ргоюсо! (5ЁР) [3] — протокол обмена данными между 5С51 уст- 
ройствами с использованием КОМА; 

— [Р оуег титВапа (ТРо1В) [3] - группа протоколов, описывающих передачу [Р-паке- 
тов через ийтВапа; 

— боске! Питесй Ргоосо/ (ЗЬР) [3] — протокол установления виртуальных соединений 
и обмена данными между сокетами через /ийтВама. 

Кроме поддержки многих протоколов имеются также многие программные 
средства, позволяющие расширить возможности применения данной сети. ВооЕ оуег 
тртВапа (Во!В) [3] является одним из них и позволяет осуществлять удаленную 
загрузку операционной системы в сетях [ийтшВапа, что до недавнего времени было 
возможным только при наличии Ёйетпей. 

3. Интенсивность развития. /ийтВапа является довольно востребованной и 
активно развивающейся технологией. Постоянно совершенствуются ее как аппаратные, 
так и программные средства. Функциональность постоянно расширяется, что позво- 
ляет поддерживать многие самые новые и передовые технологии. 
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Реализация необходимых условий 
для функционирования кластера 
при использовании сети идтВапа 


Обеспечение обмена данными между приложениями в соответствии со 
стандартом МРГ. В современных высокопроизводительных кластерных вычислительных 
системах обмен данными между приложениями, выполняющимися на разных вычис- 
лительных узлах, посредством протокола МРГ уже давно не является функцией 
Ейегпее. Как раз для этого и используются высокоскоростные сети, одной из которых 
и является /ийтВапа. Следовательно, имеется большая практика успешного ее приме- 
нения для решения вышеупомянутой задачи. Потому никаких проблем с реализацией 
данной функции без Ёйегпей возникнуть не должно. 

Передача ГР пакетов. Правила передачи /Р пакетов через сеть /В описывает 
группа протоколов /Р оуег ирйтВапа (Ро1В) [3], в соответствии с которыми все сетевые 
приложения, использующие протоколы ТСРЛР в сети ЕШегие!, могут без изменений 
использоваться в сети идтВапа. Отдельно стоят приложения, работающие с физичес- 
кими адресами сетевых плат и использующие Ёйегпе! пакеты напрямую (примером 
таких приложений являются ОНСР-сервер и ОНСР-клиент), в этих случаях не 
представляется возможным динамически получать настройки сети с ОНСР-сервера и 
создаются некоторые неудобства при сетевой загрузке операционной системы. 

Сетевая загрузка операционной системы. Не так давно в рамках проекта 
Еетоо5РХЕ [4] была разработана технология, позволившая осуществлять удален- 
ную загрузку операционной системы Гтпих в сетях [ийтВапа. Она базируется на тех 
же принципах, что и загрузка через ЁЕйегпе!, но из-за определенных различий в 
аппаратных средствах имеет свои особенности. Для понимания причины их возник- 
новения рассмотрим сначала классическую РХЁ-загрузку операционной системы тих. 

Для загрузки применяются протоколы /Р, ОБР, ОНСР и ТЕТР, осуществляется 
она загрузчиком рхеЙпих, который можно создать на базе пакета 5у5Пиих [4]. Кроме 
того, ВГО5 сетевой платы должен иметь специальный РХЁ-код. РХЁ загрузка опера- 
ционной системы /Глпих имеет следующие этапы: 

1. Посылка запросов ОНСР серверу РХЕ-кодом сетевой платы и получение 
начальных настроек сети, а также адреса ТЕТР сервера и пути к загрузчику рхейтих. 

2. Загрузка с ТЕТР сервера образа рхе[тих и передача ему управления. 

3. Получение с ТЕТР сервера образов ядра Глмих и временной корневой файловой 
системы ти’, загрузка ядра и монтирование файловой система тйита, с последую- 
щей передачей управления скрипту инициализации базовой операционной системы. 

4. Получение сетевых настроек от ОНСР сервера и настройка сети. 

5. Монтирование по №Ё5 основной корневой файловой системы и запуск скрипта 
инициализации основной операционной системы. 

Из этого перечисления следует, что для поддержки сетевой загрузки на обору- 
довании /ийтВапа необходимо выполнение следующих условий: 

— Плата шАп1Вап4 должна поддерживать технологию РХЕ. 

— ТЕТР сервер должен работать по протоколу ТРо1В. 

— МЕЗ также должен работать в соответствии с протоколом ГРо|В. 

— Должно быть обеспечено динамическое получение настроек ТРо1В сетевого интер- 
фейса. 

— В ядро Глиах должны быть включены драйвера сетевой платы [В, а также под- 
держка протокола ГРо1В. 

- Скрипт инициализации базовой операционной системы, входящий в состав шИга, 
должен быть адаптирован к новому сетевому окружению. 
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С настройкой ТЕТР и М5 никаких проблем не возникает, так как они без 
всяких изменений работают через идиВапа, используя протокол /Ро/В. В новых 
версиях ядер Глиих присутствуют драйверы для плат ийшВапа с поддержкой про- 
токола /Ро[В, т.е. необходимо собрать ядро Глтих с этими драйверами. С остальными 
пунктами все не так просто. Стандартный В/О5 плат тртшВапа не содержит в себе 
РХЕ-кода. Однако есть возможность это исправить. Для этого необходим образ ориги- 
нального В/О$5, средства для его модификации и перезаписи, а также сам РХЁЕ-код, 
который входит в состав программного пакета Воо! оуег 1В [3]. Все эти компоненты 
можно получить на сайте производителя сетевого оборудования ийтВапа. 

Отдельно нужно остановиться на динамическом получении настроек сетевого 
интерфейса /Ро/В посредством протокола ОНСР. Ни стандартный сервер ОНСР, ни 
стандартный клиент не поддерживают работу с ийтВапа. С помощью патча, вхо- 
дящего в состав пакета Воо! оуег 1В, можно получить базовую поддержку ийтВапа 
сервером ОНСР, однако полной совместимости пока нет. К тому же, изменения не 
касаются клиентской части, а значит, в дальнейшем для полной совместимости необ- 
ходима доработка как сервера, так и клиента. Связано это с тем, что размер физического 
адреса плат ийтВапа не соответствует протоколу ОНСР, вследствие чего его нельзя 
использовать для идентификации ОНСР сессии. В документации пакета Воой оуег [В 
предлагается в качестве решения этой проблемы использовать специальный иденти- 
фикатор, который должен быть записан в конфигурационном файле ОНСР-клиента. 
Подобное решение проблемы вполне применимо при загрузке отдельных серверов, 
но не для загрузки вычислительных узлов кластера, так как все конфигурационные 
файлы у них являются общими. 

Полная совместимость /ийтВапа и ОНСР до сих пор является только частично 
решенной задачей, следовательно, приходится находить локальные решения, как, 
например, динамическое формирование идентификатора, зависящее от физического 
адреса сетевой платы, или вообще получать нужные настройки иным путем. 

Удаленное управление аппаратными средствами кластера. Наиболее распрост- 
раненным средством для решения этой задачи является, безусловно, /РМ/ [5]. Все 
существующие реализации /РМ/ требуют наличия Еетпе!. Подобных по функциональ- 
ности средств, способных работать в сети ийшВапа не создано и не планируется. 
Однако возможен альтернативный вариант решения данной задачи — использование 
сервисной сети ету МЕТ [6]. 

Основная функциональность сервисной сети Зету МЕТ: 

— селективный сброс узла; 

— селективное и «плавное» включение/выключение электропитания узла (предупреждает 
износ оборудования и позволяет избежать сильного скачка напряжения при включе- 
нии системы); 

— доступ к сериальной консоли узла, поддерживающий: изменение параметров В/05 
узла; выбор (Е.О) загружаемой ОС; параметры загрузки ядра тих; любые команды 
в консольном режиме; мониторинг критических сообщений ОС; «посмертное» чтение 
(из энергонезависимой памяти платы 5егуМЕТ) нескольких последних сообщений ОС. 

Эта сервисная сеть обладает меньшей, чем в /РМ/, но вполне достаточной функ- 
циональностью, она проще в установке, настройке и использовании, кроме того, в силу 
своей простоты является достаточно стабильной в работе и отказоустойчивой. При 
всем этом ее стоимость на порядок ниже стоимости /РМ/. Учитывая все выше- 
перечисленное, бегуМЕТ вполне может быть использована для решения задачи уда- 
ленного управления аппаратными средствами кластера. 
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Преимущества и недостатки кластерной 
вычислительной системы без сети Етегпе 


При проектировании высокопроизводительных кластерных вычислительных 
систем необходимо учитывать, что с ростом производительности системы значитель- 
но увеличивается количество необходимого вспомогательного оборудования, в том 
числе и коммутационного. В действительно больших системах это становится допол- 
нительной проблемой, так как может серьезно повлиять как на стоимость системы, 
так и на ее отказоустойчивость. Поэтому перспектива уменьшить количество сетевого 
оборудования и коммутационных кабелей почти в два раза выглядит весьма неплохо. 
Итак, а в чем же именно мы выигрываем в данной ситуации: 

— Увеличивается отказоустойчивость. 
— Снижается стоимость. 
— Упрощается инсталляция и обслуживание. 

К недостаткам можно, пожалуй, отнести только сложность внедрения. Этот не- 
достаток можно объяснить «юным возрастом» технологии, вследствие чего некоторые 
решения не полностью реализованы. Наиболее сложной из таких проблем является 
недостаточная совместимость /ийтВапа и ОНСР, которая доставляет немало труднос- 
тей. Но, тем не менее, даже это не является критичным, к тому же данная проблема 
может быть решена в процессе дальнейшего развитии технологии. 


Выводы 


Приведенная концепция построения суперкомпьютеров кластерной архитектуры 
без использования сети Ейегие! имеет ряд существенных преимуществ по сравнению 
с классическими. Учитывая то, что при этом недостатки минимальны, перспективы ее 
развития выглядят весьма неплохими. Безусловно, имеются некоторые трудности с 
первоначальным внедрением технологии, но они вполне преодолимы. Практическим 
подтверждением этого является тот факт, что в 2008 году в Институте кибернетики 
НАН Украины был модернизирован один из кластеров суперкомпьютерного комп- 
лекса СКИТ [7], с применением вышеописанных подходов, что позволило полностью 
отключить его от сети Ёйегпе!. В дальнейшем планируется развитие и внедрение 
данной технологии в кластерных решениях Института кибернетики НАН Украины. 
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Побудова суперкомп’ютера кластерно! архтектури без використання мереж! Еегпе{ 
Досл1джен! загальн! концепци управлёння високопродуктивною кластерною обчислювальною системою 
без використання мереж! Ефегтев, а також розглянута можлив!сть практично! реалзацй такого управлёння. 


5.А. СогепКо, А.Г. дооут5Ку, 5.(. Куабсйип 

Зирегсотршег ВиЙато у Фе Сш$ег АгспКесвиге ууНВошЕ Обасе оГ Еегпе 

ТБе сепега| сопсер$ оЁ сопзбгасНоп 12-е сепсу сГазег сотрийпе зузет \/ойе изасе оЁ пебмогК 
Ефегпей аге гезеагсВеа, ап4 ао е оррогипиу оЁРФеш ргасИса| геайтайоп 1$ сопз14еге4. 
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